Destilación adaptativa con heterofilia para redes neuronales de hipergrafos
HADES usa la heterofilia para destilar conocimiento en hipergrafos. Logra modelos ligeros hasta 12.3 veces más rápidos que el profesor.
HADES usa la heterofilia para destilar conocimiento en hipergrafos. Logra modelos ligeros hasta 12.3 veces más rápidos que el profesor.
Descubre cómo la normalización global estabiliza la destilación on-policy en modelos multimodales, mejorando el razonamiento y evitando explosiones de gradiente.
AliyunConsoleAgent entrena agentes web para verificar documentación en consolas cloud. Combina destilación y RL, logrando 63.52% éxito con 92% menos costo.
Aprende cómo los modelos de razonamiento seleccionan entre millones de etiquetas usando una estrategia de destilación mecanicista en dos fases.
Descubre cómo el nuevo método FBCC evita el olvido catastrófico en clustering continuo sin etiquetas usando destilación adelante-atrás.
Aprende cómo FBCC aplica destilación bidireccional para clustering continuo sin olvidar tareas anteriores. Reduce el olvido catastrófico.
Aprende cómo LRMIL destila conocimiento de alta resolución a baja para clasificar imágenes patológicas con alta precisión y bajo coste.
MGSD mejora la planificación espacial visual un 19% mediante autodestilación consciente de brecha de modalidad, cerrando la brecha percepción-razonamiento.
Descubre LoRi: destilación de bajo rango que mejora el razonamiento implícito en LLMs, acercándose a cadenas de pensamiento explícitas.
Drive-KD destila conocimiento multi-profesor para VLMs en conducción autónoma: menor uso de GPU, mayor throughput y rendimiento superior en planificación.
ViCuR usa pistas visuales recuperables para destilación on-policy multimodal, mejorando razonamiento sin sesgos de atajos. Resultados mejores en benchmarks.
Comprime trazas de razonamiento para destilar conocimiento. Reduce tokens de entrenamiento hasta 70% y acelera 7.6x con hasta 96% de precisión.
Recover-LoRA recupera hasta 95% de precisión en modelos de 2 bits usando adaptación de bajo rango y destilación con solo 10k datos sintéticos.
Recover-LoRA recupera hasta un 95% de precisión en modelos de lenguaje cuantizados a 2 bits usando destilación de conocimiento con datos sintéticos. Ideal para despliegue en edge.
Descubre cómo OGKD mejora la precisión en modelos médicos al respetar relaciones entre clases. Resultados superiores en 11 datasets.
PRISM combina modelos de visión fundacionales con expertos autoorganizados, superando la transferencia negativa para lograr el estado del arte en segmentación.
Descubre cómo los modelos de lenguaje pueden mejorar su memoria y aprender de forma continua imitando el sueño humano, con técnicas de destilación y ensueño.
Descubre Align-KD, técnica que destila conocimiento de alineación multimodal de VLMs grandes a modelos móviles, mejorando precisión en 6 benchmarks.
DtR transforma transformers preentrenados en modelos híbridos eficientes mediante destilación y reemplazo de capas. Obtén precisión con menor costo computacional.
Descubre PAND: destilación de vecindad consciente de prompts para clasificación visual fina. Supera al estado del arte con modelos ligeros.